استخراج خودکار جملات هم‌تراز انگلیسی-فارسی از متون مقایسه‌ای با بهره‌برداری از اطلاعات نحوی

Authors

Abstract:

پیکره‌های موازی همواره از غنی‌ترین منابع در مباحث پردازش زبان طبیعی محسوب می‌شوند.  این نوع پیکره‌ها شامل متون ترجمه‌شدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله هم‌ترازشده‌اند. علیرغم کاربرد فراوان این نوع پیکره‌ها در مطالعات مختلف از جمله پژوهش­های زبانی، ترجمة ماشینی آماری و سامانه‌های خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکره‌های موازی مواجه بوده‌اند. در این راستا، در پژوهش حاضر سعی شده است به‌منظور تولید پیکره موازی با بهره‌گیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات هم‌ترازانگلیسی/فارسی از متون مقایسه‌ای ارائه شود. در این روش، با ساخت بردار ویژگی با بهره‌گیری از اطلاعات نحوی جملات، یک مدل هم‌ترازی آموزش داده می‌شود. دقت مدل هم‌ترازی،در بهترین حالت، به شکل عملیاتی روی داده‌های آزمون (208 عدد جفت جمله) 77% و روی داده‌های آموزشی (830 عدد جفت جمله) 7/97 % محاسبه شد. از آنجایی که حجم داده‌های طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتم‌های آموزش مورد استفاده قرار گرفت. به‌منظور افزایش دقت، از یک الگوریتم جست‌وجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی داده‌های آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با به‌کارگیری مدل هم‌ترازی به‌دست‌آمده، به تولید ابزار هم‌ترازی دانشگاه اصفهان منجر شد، که می‌تواند به‌منظور خودکفایی در تولید پیکره‌های موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

استخراج خودکار عبارتهای کلیدی از متون مقاله‌های فارسی

در پژوهش حاضر، عبارتهای کلیدی از متون مقاله‌های فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونه‌ای که در طول زمان مرتباً به کارایی آن افز...

full text

رویکردی کمینه‌گرا به نوع‌بندی نحوی جملات امری در فارسی

مقالة حاضر تلاش می­کند شیوة نوع‌بندی جملات امری را در گونة گفتاری فارسی در قالب برنامة کمینه‌گرا تبیین نماید. از این­رو، با الگوگیری از رویکرد هان و شواگر سازوکار حاکم بر جوازدهی جملات امری در فارسی بررسی می­گردد. چارچوب نظری این پژوهش، نظریة بازبینی مشخصه‌ها و فرضیة گروه متمم‌نمای انشقاقی ریتزی (1997) است. ابتدا استدلال می‌شود که در ساخت‌های امریِ بی‌نشان و نشان‌دار، حرکت آشکار فعل به هستة گروه...

full text

مهندسی خودکار هستی شناسی: امکان سنجی استخراج روابط معنایی از متون فارسی و تعیین میزان پیدایی آنها

در این مقاله ضمن تبیین فرایند مهندسی هستی شناسی‌ها، استخراج روابط معنایی با تکیه بر روشهای مبتنی بر الگو، مطالعه شده است. نمونه‌ای از متون تخصصی فارسی در حوزة ربط تحلیل و روابط معنایی موجود در آن استخراج و دسته‌بندی گردید. همچنین، تعیین میزان پیدایی روابط معنایی در نمونة مورد تحلیل، در پاسخ به دومین پرسش پژوهش انجام پذیرفت. امکان استخراج و تعیین روابط معنایی در نمونه مورد تحلیل، تأیید ش...

full text

تشخیص خودکار جنسیت نویسنده در متون فارسی

Gigantic amount of textual data being transfers in web everyday. like other communities,cyberspace is vulnerable to attacks, false information and deception.it becomes increasingly important to design an efficient method to trace identity in this community.to investigate the problem of gender identification,we propose 48 feature,and design three machine learning algorithms.the results of study ...

full text

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 10  issue 2

pages  15- 36

publication date 2018-09-23

By following a journal you will be notified via email when a new issue of this journal is published.

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023